home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000170_owner-urn-ietf _Fri Nov 15 06:20:31 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  4KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id GAA03277 for urn-ietf-out; Fri, 15 Nov 1996 06:20:31 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id GAA03272 for <urn-ietf@services.bunyip.com>; Fri, 15 Nov 1996 06:20:28 -0500
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA26721  (mail destined for urn-ietf@services.bunyip.com); Fri, 15 Nov 96 06:20:21 -0500
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <00484-0@josef.ifi.unizh.ch>; Fri, 15 Nov 1996 12:18:17 +0100
  7. Subject: Re: [URN] Re: I18N does not belong in URNs
  8. To: dgd@cs.bu.edu
  9. Date: Fri, 15 Nov 1996 12:18:16 +0100 (MET)
  10. Cc: urn-ietf@bunyip.com
  11. In-Reply-To: <v02130500aeb0fc2678c3@[128.148.157.46]> from "David G. Durand" at Nov 14, 96 12:13:21 pm
  12. Mime-Version: 1.0
  13. Content-Type: text/plain; charset=US-ASCII
  14. Content-Transfer-Encoding: 7bit
  15. Content-Length: 2314
  16. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  17. Message-Id: <"josef.ifi..298:15.10.96.11.18.26"@ifi.unizh.ch>
  18. Sender: owner-urn-ietf@services.bunyip.com
  19. Precedence: bulk
  20. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  21. Errors-To: owner-urn-ietf@bunyip.com
  22.  
  23. David G. Durand wrote:
  24.  
  25. [Sorry: In an earlier mail, I attributed a quote to Mark Fischer when
  26. it indeed came from David G. Durand.]
  27.  
  28. > UTF-8, with
  29. >%encoding for characters over 127, is a unique transcribable byte sequence
  30. >capable of grandfathering all of the namespaces we have discussed. As long
  31. >as we require naming authorities to use well-defined Unicode names, we can
  32. >even handle non-Unicode characters, by making authorities that need them
  33. >define a policy for their application of the private-use area. consistent
  34. >use of private use characters will guarantee uniqueness, so we are all set!
  35.  
  36. The mentioning of the private-use area tuches the following problems:
  37.  
  38. - What to do with characters not in ISO 10646/Unicode.
  39. - What to do with namespaces not defined in terms of characters.
  40. - What to do with URNs that are not valid %HH encoded UTF-8 sequences.
  41.  
  42. As for characters not in Unicode, this is really a case that should appear
  43. extremely rarely. Unicode already contains an enormous amount of characters
  44. from all kinds of international, national, and corporate standards. And
  45. new scripts and characters are still being added. The use of the private
  46. area(s) should definitely not be openly suggested, but be downplayed as
  47. much as possible.
  48.  
  49. As for namespaces not defined in terms of characters, we can either
  50. require that they define a solution in terms of ISO 10646 characters,
  51. or we can allow them to define their own solution in terms of octets.
  52. For space and other considerations, they ideally will choose something
  53. similar to the data: URL, but we have to clearly specify what we
  54. tolerate and what not.
  55.  
  56. If we tolerate direct encoding of arbitrary octets with %HH, then we
  57. have to address the issue of URNs where the %HH ecodings do not reperesent
  58. a correct UTF-8 sequence. Mainly for reasons of cross/backwards compatibility
  59. with URLs, I would suggest that we clearly specify that software
  60. transporting, storing, and manipulating URNs should take them as they
  61. are, even if they are not interpretable as UTF-8. In user-friendly
  62. environments, octets that do not form a valid UTF-8 sequence, as well as
  63. UTF-8 combinations that do not represent characters (the Unicode code
  64. position is undefined) or that cannot be displayed (lack of fonts,...)
  65. should be displayed in %HH notation.
  66.  
  67.  
  68. Regards,    Martin.